53 research outputs found

    Class Distribution Estimation in Imprecise Domains Based on Supervised Learning

    Get PDF
    cap. 9- pp. 187-202a cuantificación -o estimación de proporciones- desempeña un papel importante en muchos problemas prácticos de clasificación. Por un lado, una máquina que clasifica automáticamente un elemento en un grupo de clases predefinidas, tomará decisiones subóptimas, si la distribución de clases en el dominio de prueba (real) difiere de la que se asume en el aprendizaje. La estimación de la nueva distribución de clases es necesaria para adaptar el clasificador a las nuevas condiciones operativas. Por otro lado, hay algunos dominios reales donde la propia tarea de cuantificación es el objetivo principal. Algunos campos, como el control de calidad, el marketing directo, el estudio de tendencias o algunas tareas de reconocimiento textual, requieren métodos que puedan estimar de forma fiable, la proporción de elementos dentro de cada categoría, sin ninguna preocupación acerca de cómo cada elemento ha sido clasificado individualmente. Describimos varias técnicas de cuantificación que se basan en el aprendizaje supervisado y proporcionan estas estimaciones basadas en: a) la matriz de confusión del clasificador, b) las estimaciones de probabilidad posteriores y c) las medidas de divergencia distribucional. Ilustramos estas técnicas, así como su robustez contra el rendimiento del clasificador base, en un entorno práctico de control de calidad seminal donde el objetivo final es cuantificar la proporción de espermatozoides con acrosoma dañado/intacto

    SIFT (Scale Invariant Feature Transform)

    Get PDF
    Cap. 8, pp. 131-157SIFT es un método que permite detectar puntos característicos en una imagen y luego describirlos mediante un histograma orientado de gradientes. Y además, lo hace de forma que la localización y la descripción presenta una gran invarianza a la orientación, la posición y la escala. Cada punto característico queda, por lo tanto, definido mediante su vector de características de 128 elementos, y se obtiene la información de su posición en coordenadas de la imagen, la escala a la que se encontró y la orientación dominante de la región alrededor de dicho punto. En este capítulo se explican los pasos necesarios para obtener descriptores SIFT en una imagen. Se presenta un ejercicio sencillo que sirve para ilustrar numéricamente cómo se obtiene el descriptor a partir de la región que rodea un punto característico. También se comentan las posibilidades de SIFT para realizar reconocimiento de objetos presentes en una imagen. Y, finalmente, se habla brevemente de algunas extensiones del método así como de otros descriptores de imagen relacionados que han surgido posteriormente

    A data augmentation strategy for improving age estimation to support CSEM detection

    Get PDF
    [EN] Leveraging image-based age estimation in preventing Child Sexual Exploitation Material (CSEM) content over the internet is not investigated thoroughly in the research community. While deep learning methods are considered state-of-the-art for general age estimation, they perform poorly in predicting the age group of minors and older adults due to the few examples of these age groups in the existing datasets. In this work, we present a data augmentation strategy to improve the performance of age estimators trained on imbalanced data based on synthetic image generation and artificial facial occlusion. Facial occlusion is focused on modelling as CSEM criminals tend to cover certain parts of the victim, such as the eyes, to hide their identity. The proposed strategy is evaluated using the Soft Stagewise Regression Network (SSR-Net), a compact size age estimator and three publicly available datasets composed mainly of non-occluded images. Therefore, we create the Synthetic Augmented with Occluded Faces (SAOF-15K) dataset to assess the performance of eye and mouthoccluded images. Results show that our strategy improves the performance of the evaluated age estimator

    Descripción de textura en imágenes utilizando Local Binary Pattern (LPB)

    Get PDF
    Cap. 7, pp. 115-130En este capítulo vamos a estudiar uno de los descriptores de textura más utilizados en la actualidad, llamado Local Binary Pattern (LBP) o patrón binario local, que tiene numerosas aplicaciones en el análisis de imágenes digitales y, en general, en la visión por computador. Previamente, se introducirá el concepto de textura en una imagen digital y los tipos de descriptores que se utilizan para caracterizarla. Posteriormente se explicará con detalle qué es y cómo se obtiene un Patrón Binario Local (LBP), algunas variaciones en su cálculo que fueron propuestas como extensiones al descriptor básico y tres métodos derivados del LBP como son el ALBP (Adaptive Local Binary Pattern), el LBPV (Local Binary Pattern Variance) y el CLBP (Completed Local Binary Pattern). Finalmente se comentan algunas aplicaciones tanto del LBP como de sus métodos derivados

    Application of textural descriptors for the evaluation of surface roughness class in the machining of metals

    Get PDF
    La medición de la rugosidad superficial ha sido una cuestión de especial interés en la investigación de mecanizado de metales durante los últimos cincuenta años. El acabado superficial se puede evaluar mediante algunos parámetros de rugosidad definidos en las normas internacionales. Estas normas están orientadas a dispositivos de medición táctiles que proporcionan registros bidimensionales del perfil de la pieza. Sin embargo, en la última década, la mejora de la visión computarizada y la óptica ha animado a muchos grupos a investigar en la aplicación de estas tecnologías. La evaluación de rugosidad de la superficie no es una excepción. La ventaja de la visión por ordenador en esta área es la caracterización de amplias áreas de superficie proporcionando más información (información 3D). En este contexto, este documento propone un método basado en la visión por ordenador para evaluar la calidad superficial delas piezas mecanizadas. El método consiste en el análisis de imágenes de acabado superficial de piezas mecanizadas mediante cinco vectores de características basados en momentos: Hu, Flusser, Taubin, Zernike y Legendre. Atendiendo a estos descriptores las imágenes se clasificaron en dos clases: baja rugosidad y alta rugosidad, utilizando el algoritmo del vecino k-nn y las redes neuronales. Los momentos utilizados como descriptores en este artículo muestran un comportamiento diferente con respecto a la identificación del acabado superficial, concluyendo que los descriptores Zernike y Legendre proporcionan el mejor rendimiento. Se logró una tasa de error del 6,5% utilizando descriptores Zernike con clasificación k-nn

    Supervised ranking approach to identify infLuential websites in the darknet

    Get PDF
    [EN] The anonymity and high security of the Tor network allow it to host a significant amount of criminal activities. Some Tor domains attract more traffic than others, as they offer better products or services to their customers. Detecting the most influential domains in Tor can help detect serious criminal activities. Therefore, in this paper, we present a novel supervised ranking framework for detecting the most influential domains. Our approach represents each domain with 40 features extracted from five sources: text, named entities, HTML markup, network topology, and visual content to train the learning-to-rank (LtR) scheme to sort the domains based on user-defined criteria. We experimented on a subset of 290 manually ranked drug-related websites from Tor and obtained the following results. First, among the explored LtR schemes, the listwise approach outperforms the benchmarked methods with an NDCG of 0.93 for the top-10 ranked domains. Second, we quantitatively proved that our framework surpasses the link-based ranking techniques. Third, we observed that using the user-visible text feature can obtain comparable performance to all the features with a decrease of 0.02 at NDCG@5. The proposed framework might support law enforcement agencies in detecting the most influential domains related to possible suspicious activities.SIPublicación en abierto financiada por el Consorcio de Bibliotecas Universitarias de Castilla y León (BUCLE), con cargo al Programa Operativo 2014ES16RFOP009 FEDER 2014-2020 DE CASTILLA Y LEÓN, Actuación:20007-CL - Apoyo Consorcio BUCL

    Detecting emerging products in TOR network based on K-Shell graph decomposition

    Get PDF
    En este documento, presentamos un marco semiautomático que permite identificar los más populares y también, algunos de los productos ilegales emergentes que se venden en los mercados que se encuentran en la red oscura (Darknet). Utilizando información textual extraída de los dominios de Darknet, construimos un gráfico de correlaciones de productos (PCG), donde los nodos son productos Darknet y los bordes reflejan una oferta simultánea de dos productos. Aplicando el algoritmo k-Shell para descomponer el gráfico PCG, identificamos los productos contenidos en el núcleo e identificamos los más populares y emergentes. Aplicamos nuestro algoritmo de detección de emergencia al conjunto de datos denominado direcciones de texto de uso de Darknet (DUTA), detectando MDMA y éxtasis como las drogas más relevantes y emergentes, respectivamente, validando estos resultados con el Informe de prestigiosas organizaciones internacionales de drogas. Estos resultados hacen de nuestro marco una herramienta complementaria para extraer información en los mercados ilegales donde no se muestran los registros de transacciones

    Classification and correlation of surface roughness in metallic parts using texture descriptors

    Get PDF
    En este artículo presentamos un método para clasificar la rugosidad superficial en piezas metálicas, después de mecanizar procesos, utilizando un sistema de visión artificial. Se utilizan dos métodos de análisis de texturas: matriz de co-ocurrencia (GLCM) y la energía de la textura obtenida por el método de las leyes. Estos descriptores se clasifican con análisis de discriminantes lineales y cuadráticos (LDA y QDA) y redes neuronales artificiales (ANN). Los mejores resultados se han logrado utilizando la máscara de leyes R5R5 (94,03%) y el descriptor de correlación combinado extraído del GLCM (94,23%), ambos clasificados utilizando redes neuronales. Estos resultados muestran el éxito del método y la posibilidad de correlacionar estos descriptores con la rugosidad media (RA)

    Clasificacion de imagenes con bag of visual words

    Get PDF
    Cap. 10- pp. 181-200La clasificación de imágenes es un proceso mediante el cual un ordenador es capaz de decidir qué contenidos están presentes en una imagen, esto es a qué clase pertenece o qué objetos contiene. En los últimos años el modelo Bag of Visual Words (BoVW) se ha convertido en una de las soluciones más utilizadas para realizar esta tarea. El término visual word (palabra visual, o simplemente “palabra”) hace referencia a una pequeña parte de una imagen. El BoVW consta de varias etapas: un muestreo de puntos característicos (keypoints) de la imagen, la descripción de los mismos, la creación de un diccionario de palabras visuales mediante un proceso de agrupamiento, la representación de las imágenes a nivel global utilizando este diccionario y, finalmente, una clasificación de estas representaciones para decidir la clase a la que pertenece. En este capítulo se explicará el modelo BoVW de clasificación de imágenes, detallando estas etapas

    A review of spam email detection: analysis of spammer strategies and the dataset shift problem

    Get PDF
    .Spam emails have been traditionally seen as just annoying and unsolicited emails containing advertisements, but they increasingly include scams, malware or phishing. In order to ensure the security and integrity for the users, organisations and researchers aim to develop robust filters for spam email detection. Recently, most spam filters based on machine learning algorithms published in academic journals report very high performance, but users are still reporting a rising number of frauds and attacks via spam emails. Two main challenges can be found in this field: (a) it is a very dynamic environment prone to the dataset shift problem and (b) it suffers from the presence of an adversarial figure, i.e. the spammer. Unlike classical spam email reviews, this one is particularly focused on the problems that this constantly changing environment poses. Moreover, we analyse the different spammer strategies used for contaminating the emails, and we review the state-of-the-art techniques to develop filters based on machine learning. Finally, we empirically evaluate and present the consequences of ignoring the matter of dataset shift in this practical field. Experimental results show that this shift may lead to severe degradation in the estimated generalisation performance, with error rates reaching values up to 48.81%.SIPublicación en abierto financiada por el Consorcio de Bibliotecas Universitarias de Castilla y León (BUCLE), con cargo al Programa Operativo 2014ES16RFOP009 FEDER 2014-2020 DE CASTILLA Y LEÓN, Actuación:20007-CL - Apoyo Consorcio BUCL
    corecore